2014/04/25

[Data Analytics] 巨資料,深資料, 寬資料

「巨資料」顧名思義,指的是「很多很多的資料」,但是「多」這件事情可以指涉很多種狀況,即便是套用 Big Data 定義的 3V(volume 資料量,velocity 資料產生的速度,variety 多元性),或是再加上近來常被加上的第四 V(Veracity,真實性),好像也沒有讓「多」這件事情更清楚。

或許用「資料表」來看,事情會比較容易說清楚。下圖是網路上隨便找到的一張資料表,看起來是某公司的銷售記錄,上面的「欄位」(column)有「代號」、「姓名」、「電話」、「地址」...等等,而每一「列」是一筆資料,代表了一筆訂單。


以這張表為例,所謂的「很多」資料,很容易被理解為是指「很多筆訂單」,但是其實這種形式的「多」,對分析來說意義是很有限的。如果記得基礎統計的「抽樣」部分,應該還有印象,樣本數增加可以讓我們對母體的推論更有信心,當樣本數超過某個限度之後,增加的效益是很有限的。所以資料筆數多,表格很長的「深資料」,其意義是有限的。

如果說「巨資料」能提供洞見(insight),資訊其實常常來自於不同欄位之間,一些不容易被直接發現的關連性。也就是說,資料表格的欄位數,或者說是「寬度」,對「藉由分析產生洞見」這件事有相當大的貢獻。

以上面表格的例子來說,當我們累積了 1000 筆交易記錄,我們可能可以知道某些產品在各地區、各時節的受歡迎程度,甚至某個常客的消費偏好;但是如果我們想要知道某種產品是不是在某種天氣賣得比較好,我們就需要增加一個新的「天氣」欄位,如果我們想知道某種特殊性格的人對某種產品的偏好,我們就需要再增加「消費者性格」的欄位。巨資料的特色之一是資料來源的「多樣性」(variety),這讓我們有很多方式來增加資料表格的寬度,而「寬資料」可以給我們新的機會透過分析而得到新的洞見。

這倒不是說「深資料」就不重要了,事實上當資料表格的寬度增加,我們所需要的資料深度也增加,否則我們找到的「關連性」證據會太過薄弱,很可能只是特例,而不具有參考價值。

A quick take-away: wide data enables us to find new insights, while deep data consolidates the findings.

2014/04/23

看未來

近年的工作內容,似乎老是繞著「看未來」這件事情打轉,從前瞻技術開發,產品與商業模式的創新,到消費趨勢的洞察,無非是試圖在「長期規劃」這件事情上做文章。

回首前塵,自己會一路往這個方向跌跌撞撞的前進,其實也跟大環境的變化脫不了關係。

當年, 跟很多書還算念得不錯的人一樣,其實也是想朝學術研究發展,可是出國讀書的那段期間,恰好遇到各國開始刪減研究經費,申請獎學金越來越困難。雖然不致於到沒有獎學金的地步,但卻也讓我開始思索,如果未來研究經費越來越拮据,這條路是不是還有辦法走下去?

當然,追隨熱門的研究題目,是確保研究經費有著落的方式之一,但對我來說,這終究不是釜底抽薪之計。我也不是很能接受一些教授們所說的:「我做的研究這麼偉大,怎麼能不給我經費?」,我倒是覺得如果一個研究主題如果一直沒有經費支持,那麼很可能只對很少數人來說重要而已。

我比較期待的是,如果,能夠找到一個商業模式,讓我的研究成果可以很快的轉換成商業價值,那麼我的研究就可以自給自足,不用再仰賴公部門的政策,或受限於政府財政。

於是,我放棄了即將完成的博士學位,加入了創業者的行列。幾年過去了,雖然創業不算成功,但也讓我開始了另一段的冒險,遇到了很多精采的人,精采的事。

學術研究通常離現實應用比較有點距離,所以要能夠轉換成商業價值,必然要跟比較「前瞻」或「未來」的策略布局有關,這也就造成了這幾年都在繞著「看未來」這件事上做文章。

黃齊元先生的〈這就是台灣人!不懂想像「未來」〉一文,大抵道出了自己這幾年的感想。其中比較另我動容的是最前面這段:
「這是我最近在看的書,叫做《奇點將近》,是在一次政府高層會議,一位副總理和我們提到的。所謂的奇點是一個臨界點,當它未來來臨時,技術發展將無限制的進步,超越人類傳統智慧發展,作者預測時間會在2045年。」
我大吃一驚,一是因為年紀這麼大的人,竟然可以擁抱那麼新的觀念;二是震撼這麼專業相對冷門的書籍,居然有中譯本,而且還形成討論風潮
筆者在 2008 年寫過一篇短文討論 singularity,這真的是很宅很冷門的東西,把全台灣做人工智慧的學者找來一個一個問,都不見得每個人都知道,可是國家副總理在看,高齡的業界大老在看。這就是中國。

我並不想唱衰自己生長的地方,但我們真的需要對未來有多一點的想像,做長遠一些的策略布局。多看未來。

2014/04/07

[摘譯] 資源革命(Resource Revolution)

「資源有限」是否會促成第三次工業革命?

這是 McKinsey Quarterly 這一期的焦點之一,主要是呼應一本新書: Resource Revolution: How to Capture the Biggest Business Opportunity in a Century 。

21世紀初,從石油價格飆漲開始,整個經濟發展圍繞在「資源稀少」這個問題上,「如何更有效率的使用資源」成為競爭力的優勢。作者的建議:
  • 讓資訊科技,奈米材料科學,生物科技在產業技術上做結合,可以大幅改善生產力。
  • 發展中國家即將成形的 25億中產階級人口,如何採用高生產力的方式促進經濟成長,將是下一波創造財富的機會。
  • 掌握這些新機會,需要新的管理思維。 
如何在這波新機會勝出?
  • 取代:用更便宜、低風險、常見的資源來取代
  • 最佳化:改善流程以確保資源運用的效率
  • 虛擬化:沒有實質意義的實體活動應該要改為數位化

[原文]

Are you ready for the resource revolution?

Meeting increasing global demand requires dramatically improving resource productivity. Yet technological advances mean companies have an extraordinary opportunity not only to meet that challenge but to spark the next industrial revolution as well.

March 2014 | byStefan Heck and Matt Rogers

How resource scarcity is driving the third Industrial Revolution

The authors of the new book Resource Revolution argue that high resource prices are spurring innovations powerful enough to unlock a new phase of global economic growth.